HiTS: ein Tagset für historische Sprachstufen des Deutschen

نویسندگان

  • Stefanie Dipper
  • Karin Donhauser
  • Thomas Klein
  • Sonja Linde
  • Stefan Müller
  • Klaus-Peter Wegera
چکیده

Im Kontext der Projekte zur Erstellung historischer Sprachkorpora „Referenzkorpus Altdeutsch“ und „Referenzkorpus Mittelhochdeutsch“ entstand ein Tagset für die Wortartanalyse, HiTS („Historisches Tagset“). Im Projekt „Referenzkorpus Frühneuhochdeutsch“ wird eine vereinfachte Version davon angewendet, da v.a. die späteren Zeiträume schon nahe am neuhochdeutschen (nhd.) Stand sind.2 HiTS orientiert sich am „Stuttgart-Tübingen Tagset“ (STTS, Schiller et al., 1999), dem Standardtagset für nhd. Korpora, und übernimmt — neben einer ganzen Reihe von Tags — auch das hierarchische Design der Tagnamen. Ursprünglich sollte das Tagset komplett auf STTS aufbauen und dieses lediglich um einige neue Tags erweitern. Es stellte sich jedoch heraus, dass neben einigen notwendigen feineren Unterscheidungen (z.B. bei den Pronominaladverbien) auch die Tagnamen des STTS nicht immer geeignet schienen. Z.B. sind in HiTS der definite und indefinite Artikel eine Unterklasse der Determinativa — die Sonderstellung des Artikels, die im STTS durch ein eigenes Tag ‘ART’ betont wird, ist eine neuere Entwicklung. Das Tagset dient zur Annotation diachroner Daten. Einige wenige Tags finden dabei nur in den alt(hoch)deutschen Daten Anwendung. Um diachrone Untersuchungen bis in die jetzige Zeit zu ermöglichen, werden im vorliegenden Artikel den HiTS-Tags die jeweils entsprechenden STTS-Tags gegenübergestellt. Allerdings ist nicht in jedem Fall eine eindeutige Abbildung möglich. So wird z.B. in HiTS zwischen attributivisch und substantivisch verwendeten Zahlen unterschieden, nicht aber im STTS. Umgekehrt unterscheidet HiTS nicht zwischen elliptischen („kopflosen“) Nominalphrasen und substantivierten Adjektiven (s. Abschnitt 5), was das STTS aber tut.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

STTS als Part-of-Speech-Tagset in Tübinger Baumbanken

Das Stuttgart-Tübingen Tagset (STTS, Schiller et al., 1999) ist der De-facto-Standard für das Tagging von Wortarten in deutschen Texten, und die überwiegende Mehrzahl der POS-annotierten Ressourcen fürs Deutsche – darunter die Baumbanken NeGra (Skut et al., 1997), TIGER (Brants et al., 2002), TüBa-D/S (Hinrichs et al., 2000) und TüBa-D/Z (Hinrichs et al., 2004), und viele andere Korpora – verwe...

متن کامل

Maschinelle Übersetzung für historische Sprachen

Der Workshop ”Maschinelle Übersetzung für historische Sprachen” hat am 13. Mai an der Universidad Politèchnica de Catalunya in Barcelona stattgefunden. Er war als begleitendes Ereignis zur europäischen Konferenz über Maschinelle Übersetzung (EAMT09) organisiert. Der Zusammenhang zwischen den beiden Ereignissen war nicht nur der Begriff ”Maschinelle Übersetzung”, sondern auch die Thematik der Ha...

متن کامل

Auf den Spuren von Konrad Zuse - Ein ortsbezogenes Lern-Adventure

Lernspiele vermitteln über eine spielerische Handlung Wissen zu bestimmten Themen oder bestimmte Fertigkeiten, indem lern-, sozialund motivationsfördernde Elemente zielgerichtet eingesetzt werden. Insbesondere für historische Sachverhalte eröffnet die Untergruppe der ortsbasierten Lernspiele Lehrenden und Ausstellern einen Gestaltungsspielraum, den klassische Lehrbücher und Museen nicht bieten ...

متن کامل

Strukturelle Mehrdeutigkeit in frühneuhochdeutschen Texten

In der synchron orientierten Sprachwissenschaft ist in letzter Zeit ein verstärktes Interesse an syntaktisch annotierten Korpora zu erkennen. Für das Gegenwartsdeutsche wären hier das tigerbzw. negra-Projekt zu nennen, in deren Rahmen bereits umfangreiche, syntaktisch annotierte Zeitungskorpora entstanden sind (Brants et al. 1999, 2002). Gerade in früheren Sprachstufen sind digitalisierte und l...

متن کامل

Öffentliche elektronische Petitionen beim Deutschen Bundestag

Es werden Gründe für die Einführung elektronischer Petitionssysteme aufgeführt und Varianten elektronischer Petitionssysteme unterschieden. Danach werden ausgewählte Ergebnisse aus der Evaluation des Modellversuchs „Öffentliche Petitionen“ beim Deutschen Bundestag dargestellt. Hervorgehoben werden soll daraus, dass das große Interesse an Veröffentlichung von Petitionen bei den Bürgern durch das...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • JLCL

دوره 28  شماره 

صفحات  -

تاریخ انتشار 2013